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CH Занимаюсь разработкой 13 лет 
Люблю обучать и делиться 
знаниями 


Plesk 


Основной np 


Websites & Domains 


+ Add Domain + Ада Subdomain Ада Domain Alias 


Domain name 
myproject.com 


example.com 


Dashboard Hosting Май Plesk Apps 


Disk Usage 295.9 MB 
Traffic 85.3 MB/month 


157245143125 


website.com 


Files & Databases 


File Manager 
ЕЗ Databases 


© FTP Access 


This is where you set up and manage websites. Note that you can host а number of websites under a single webspace. 


Type 
Website 


Website 


Dev Tools 


Ф PHP Settings (v7.3.10) 
= Logs 

> Applications 

%) WordPress Toolkit 


8 PHP Composer 


Website 


Security 


В SSUTLS Certificates 


1 Password-Protected 
Directories 


© Imunityav 
© Web Application Firewall 


$ Advisor 


одукт — панель для управления сервером 


2 Backup Manager 
Т Databases 
Ж Scheduled Tasks 
Webspaces 


© Google Authent 


Фф Wordpress 
Од титулу 


Š Speed Kit 


System Overview 


н example.com 
Р address: 12212212200 
Ubuntu 1804.3 LTS 


Plesk Obsidian 18.010 


System Security 
ев 
«ну: Oon 


Additional Services 
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на.) нечо 


Резк 


Обслуживаем 11 миллионов сайтов — это =6% Интернет 


example.com -- 


example.com + + 


Website at httpdocs! 


Branch: master; Automatic deploy to 


Wor Login Check Security 


к Scan Ава keywords 
Site Audit Score: 93 / 100 


Web Hosting Access 


PHP Composer 


PHP Settings (7.3.10) 


File Manager 


DNS Settings 


Web Application Firewall 


Logs 


Imunifyav 


Docker Proxy Rules 


IP address: 122.122.122.000 System user:admin 


Pull Updates 


Plugins Themes Clone Copy Data 


Tasks: 11/ 


Bi FTP Access 


В 5з/15 Certificates 


= Apache & nginx Settings 

dig Web staustics 55/15 

Lei май Accounts 

ДВ Password Protected Directories 


Ф web users 


ve, Speed kit 


В Hosting Settings 


Digital Ocean DNS 
АА мәй Settings 
73 Website Copying 


КО 


Google PageSpeed insights 


Backup Manager 


© Databases 


Scheduled Tasks 


оре Authaneicator 


ХУ WordPress 
© ти 


Speed КА. 


[1 


A PageSpeed Insights 


ж Seat 


Subscription Info 


сати кот 

: бе 
admin 

Disk space: он. 

2963 MB used of Unlimited 

тате он, 


928 МӘМтетіл used af Unlimited 


ад View More St 


Additional Services 


Domains 
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е Мы хотим знать, какие технологии популярны у наших клиентов 
е Что популярно в Web в целом 
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Что мы хотим знать? 


4% 
5 


Использование СОМ — нужно собирать |Р-адреса 

Какие использует nameservers — нужно собирать ОМ$-записи 
Данные по 551-сертификатам: валидность, тип, кем выпущен 
Веб-сервер, язык программирования, CMS, ... 


WordPress Тойки Joomla! Toolkit SEO Toolkit Softaculous Auto R а Skins and Color Plesk Migrator 

Web Apps & Site Editing Web Apps & Site Editing í | | SEO & Social Media Installer Schemes Server Tools 

жжжжт (138 ktkt й кажат SEO & Social Media Appearance tititi 
жжжжз: 


м 
*** 
Social Login Domain Connect Smart Updates for Warden Anti-spam and Juggernaut Security DNSSEC Manager 
Authentication DNS WordPress Toolkit Virus Protection 4 and Firewall e Security, DNS 
wer Së Web Apps & Site Editing Security, Mail Security, Server Tools > 
жи жижи Monitoring 
522 
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Как это можно узнать? 
е Аналитика из продукта 


е Купить готовые отчёты 
• Собирать данные с сайтов 


Г\ HighLoad 
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Аналитика из продукта 
e Не все можно узнать изнутри 


е Хотим знать не только про наших клиентов 
ө Делать отдельный сервис проще, чем основной продукт 
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Купить готовые отчёты 


Стоит $18000 в год 

Методика сбора данных не раскрывается 
Сложно проверить качество данных 
Невозможно выделить данные наших клиентов 


„Петскает. 
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Придётся парсить сайты! 
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Как парсить сайты? 


е Берём список доменов 
® Делаем запрос на каждый домен 
е Сохраняем результат 


как парсить сайты 


О, А! [D] Videos (Œ Images News (0 Maps : More 


About 197,000 results (0.50 seconds) 


Tools 
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ИЗ то"вообще законно? 


та 


f вызываю: полицию! 
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Подозрительный 
Первое правило С 


ж 


Не маскируйся 


User-agent: PleskBot 
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Второе правило 


Уважай robots.txt 


User-agent: * 
Disallow: / 


Ты парсишь мой 
сайт 


о. 
е» 


м 
т" 
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Третье правило 


Пе наноси урон сайту 


CA, eg 


Три простых правила 

Учитывайте лицензию, по которой опубликован контент 
Учитывайте локальные законы 

Иначе вас будут банить, вам грозят серьёзные штрафы и 
репутационные потери 
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Как парсить сайты, не создавая нагрузку на них? 


‚ Common Crawl 


We build and maintain an open repository of web 
crawl data that can be accessed and analyzed 
by anyone. 


Need years of free web page data to help 
change the world. 


Common Crawl 
е Примерно 90 миллионов доменов 


ө Пересечение с нашим списком — 27 миллионов 
е Нет нужных данных 
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Чем парсить? 


Наш выбор Node.js. 
Скриптовый язык — удобен для быстрого прототипирования. 
Асинхронный ввод/вывод — большая часть времени уходит на сетевые 


задержки. 

е Большая экосистема прт-пакетов — есть готовые решения на все 
случаи. 

е Если проблема возникает на уровне С-кода, то с этим ничего нельзя 
поделать. 
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Node.js vs Golang 


e На Со будет быстрее!!!1 
e Нет, потому что дольше ждём сеть 
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МУР 


Несколько тысяч доменов в сутки 

Три скрипта на node.js 

Запускаются по крону друг за другом 

Данные хранятся либо в памяти, либо в локальных файлах 
Всё работает в докере 
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Node.js 
processes 


MongoDB 
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Результат 


Сделали быстро 

Получили результат 

Запланировали обходить десятки миллионов доменов на регулярной 
основе и сотни миллионов по требованию 
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Требевания Пожелания 


е Масштабирование 
е Надежность 
е Минимум ресурсов на разработку 
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RabbitMQ 
MongoDB < 
resolves results 
queue queue 


resolver scheduler processor 


Kee езе. 
СА Ce Ро A H | unbound E 
7% са ЗА 
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и Nameservers 
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e Список доменов из продуктовой аналитики 
MongoDB e До 11 миллионов доменов 


resolves results 
queue queue 


resolver | scheduler processor 


Nameservers 


MongoDB 


AWS 
RabbitMQ 


resolves 


as 
jobs ЕСЕ 
1 


е Список доменов в текстовом файле 
e До 140 миллионов доменов 


| 


Unbound 


4 | Е | 


Nameservers 


MongoDB 


(на) нейісесін 


RabbitMQ 
MongoDB > 


resolves jobs results 


Ручной ввод доменов 
Обрабатываются с повышенным 
приоритетом 


| Redis kg 


Nameservers 


MongoDB 


(но) нече» 


Domain Crawler Home Check Grafana Docs 


Domain name * | https://www.highload.ru/ 
[ee] 


"domain": "www.highload.ru", 
"metalnfo": { 
"domainType": "domain", 
“domainNameSource": "web ui" 
у, 
"resolve": { 
Wipe 178. 248: 233. 16" 
}, 
"resolveNs": | 
{ 
"domain": "п52.гед.ги", 
“1р"л "176991312" 
}, 
{ 
"domain": "п51. гед. ги", 
Мури 194 58. 117. 152 
} 
1, 
"robotsTxt": { 
"allowed": true 
}, 
оеро 
"responseHeaders": { 
"server": "ОВАТОВ", 
"date": "Thu, 06 May 2021 04:03:39 GMT", 
"content-type": "text/html", 


MongoDB 


RabbitMQ 
аз 


resolves results 
queue queue 


Центральный компонент системы 
Слабосвязанная архитектура 


+ — 
Nameservers 


MongoDB 
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Очередь 


Попробовали Ви! (очередь на основе Redis) 
Ви! упирался в СРЏ 

Поменяли Ви! на RabbitMQ 

Большая производительность на том же железе 


Rabbit CPU utilization 
60% 
40% 


20% 


05/02 05/04 05/06 


Average Maximum — Minimum 
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MongoDB 


resolves 
queue MongoDB 


Nameservers 


Массированный резолвинг доменов 


Не все резолверы выдержат 

Положили локальный ОМ5-резолвер 

Cloudflare резолвит домены, но не отдает все записи 
Подняли Unbound для кэширования 

=1000 rps 


23 unbound 


(ну ны 


MongoDB 


resolves 
queue 


Nameservers 


resolver scheduler 
| 
Unbound ЕШ 


results 


MongoDB 


(на) нейісесін 


Много доменов на одном сервере 


Перемешивать список 

Делать лок по |Р 

Делать паузы между запросами на один ІР 

Используем ключи с ограниченным временем жизни в redis 
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MongoDB 


resolves 
queue 


resolver 


= 


Unbound 


Nameservers 


scheduler processor 


B- 


MongoDB 


СЪД а 


MongoDB 


resolves 


queue 


Nameservers 


resolver scheduler 
<< > ==) 
Unbound КЗ 


MongoDB 


СЪД а 


Масштабирование 
е Используем ECS Fargate 


е Автомасштабирование no CPU 
е =100-200 доменов в секунду на одном воркере 
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MongoDB 


resolves 


queue 


Nameservers 


resolver scheduler 
< — | 
Unbound КЗ 


MongoDB 
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Сетевые задержки 


e Перенесли всё (воркеры, RabbitMQ, Redis, Unbound) в один ЕС5-кластер 
е Попробовали DocumentDB — спалили около двух тысяч долларов 
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MongoDB 


resolves 
queue 


resolver 


Unbound 


Nameservers 


RabbitMQ 


scheduler 


results 
queue 


processor 


MongoDB 
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Можно ли парсить сайты из AWS? 


Главное не наносить урон сайтам 

Поддержка амазона ориентирована на решение проблемы 
3 инцидента за 4 года 

=300% в месац 


Г\ HighLoad 
CA, eg 


Обработка большого объёма данных 
e Streaming 


e Batching 
e Backpressure 
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Ограничение по памяти 


Node streams 
Async generators 
Backpressure 
Batching 
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Node streams 


const stream = s3.getObject(parans) 
.createReadStream() 
.pipe(csv.parse()) 
.pipe(getFirstColumn) 
.pipe(createJob()) 
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Азупс generators 


async functionx cursorToStream(cursor) + 
while (await cursor.hasNext()) { 
const doc = await cursor.next(); 
yield doc.domainName; 


++, Т eet 
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Batching 


const pool = new PromisePool(function* () { 
for (const job of jobs) { 
yield add(job); 
} 
}, 500); 
await pool.start(); 
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RabbitMQ 
MongoDB aes 


resolves | results 
queue 


Можно использовать Te же принципы на уровне 


всей очереди 
ШО E 
Nameservers 


Дикий Дикий Веб 


Нельзя доверять входным данным 
Гигантские тайм-ауты в любой момент 
Гигантские ответы 

Плохие $51 -сертификаты 
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Устанавливаем лимиты 


socket.setTimeout (timeout) ; 


response.on('data', function (chunk) 4 
body +=: chunk; 


if (body.length > bodyLimit) { 
request.abort(); 
} 
}); 
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Плохие 551-сертификатњ! 


E0527 09:49:28.689000000 4712 ssl_transport_security.c:945] - 
Handshake failed with fatal error SSL_ERROR_SSL: · 
error:1000006b:SSL routines: OPENSSL_internal:BA 

D_ECC_CERT. 

E0527 09:49:28.689000000 4712 handshake.c:241] Handshake failed 
with error TSI_PROTOCOL_FAILURE 

E0527 09:49:28.689000000 4712 secure_channel_create.c:99] Secure 
handshake failed with error 1. 

{ [Error] code: 14, metadata: Metadata { _internal_repr: 4 } + 


СЪД а 


MongoDB 


resolves 
queue MongoDB 


Nameservers 


Если что-то может 
пойти не так, оно 
пойдет не так... 


...особенно если 
нагрузка меняется на 
несколько порядков. 


Мон иторинг и оповещения 


Parsed Domains (... Resolve Errors (1... Nameservers Erro... Http Errors (1d) Https Errors (1d) 


4,071,431 2.1% 1.6% 3.9% 11% 


Parsed Domains 


Ш 
Ми 
М | M \ 
| mem а | del 
0 = ESS d | 
05/01 16:00 05/02 00:00 05/02 08:00 05/0216:00 05/03 00:00 05/03 08:00 05/03 16:00 05/04 00:00 05/04 08:00 


-- Value 
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Мониторинг и оповещения 


% Results In Queue 


700 K 


600 K 


500 K 


400 K 


300 K 


200 K 


100 K 


0 D .. D u | a 


ЖА ~ 
2/3 12:00 2/3 16:00 2/3 20:00 2/4 00:00 2/4 04:00 2/4 08:00 2/4 12:00 2/4 16:00 2/4 20:00 2/5 00:00 2/5 04:00 2/5 08:00 
= sum(domain_crawler_results_in_queue) 


++ 


НЕН сад 
HL) паса 


Мон иторинг и оповещения 


Monitoring APP 10:22 


[Alerting] Resolve Errors ai Monitoring APP 10:47 
U D 
[Alerting] Resolve Errors [Alerting] Jobs In Buffer 


8 [Alerting] Jobs In Buffer 


50.958623718359 0 
2105807.8571429 


Grafana у7.0.3 Apr 24th 
Grafana v7.0.3 Мау 2nd 


A Sentry APP 21:04 


MongoNetworkError 
connect ECONNREFUSED 10.55.106.30:27017 
CRAWLER-4T via Slack Mar 31st 


Resolve... Ignore Select Assignee... 
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Итоги 


Боты должны быть “этичными” 

Можно использовать готовые наборы данных 

Нужно использовать сильные стороны инструментов 
Нельзя доверять ответам 

Автоматически отсеивать “плохие” домены 
Мониторинг и оповещения 
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Спасибо за внимание! 


È< ekaragodin@gmail.com 
(ә) https://t.me/ekaragodin 
https://www.plesk.com/ 
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